Formation

Connaissance et prise en main des outils de traitement de données

SSP/DéMéSIS

25/11/2025

0.1 Sommaire

Déroulement demi-journée :

0.2 Avant-propos


Ce diaporama de formation a été rédigé dans le but d’être le support visuel des formations dispensées au SSM Agriculture.

Cette formation s’adresse à tous les nouveaux arrivants au SSM Agriculture qui seront amenés à manipuler des données sous Cerise ou sous Onyxia. Elle est dispensée en distanciel sur une demi-journée.

Ce support ne se substitue pas aux formations R dispensées par les formateurs du SSM Agriculture.
Il permet aux nouveaux agents ayant déjà pratiqué R dans un autre contexte de découvrir les spécificités de Cerise et d’en faire un bon usage.

1 Présentation

1.1 C’est quoi Cerise ?

CERISE : Consolidation Et Restitution de l’Information StatistiquE

Cerise contient l’ensemble des données et des programmes R utilisés par le SSM Agriculture.

Cerise est une plateforme qui repose sur la solution “Posit Workbench” commercialisée par la société du même nom “Posit”. Elle offre une interface web pour utiliser RStudio dans un environnement multi-utilisateurs et sécurisé.

Cerise est accessible via votre navigateur via l’URL : https://rstudio.agriculture.rie.gouv.fr/

=> À faire figurer dans vos favoris !

1.2 Avantages de Cerise

Cerise présente plusieurs avantages :

1.3 Historique des versions

1.4 Architecture générale

Cette plateforme est composée de briques standards au sein du MASA:

Elle s’appuie également sur les offres du Centre de Services MASA:

1.5 Ressources Cerise

Des admins Cerise qui vous surveillent

1.6 Mises à jour Cerise

1.7 Cerise en 2025

Composant Version actuelle Version à venir
RStudio 2024.09 « Cranberry Hibiscus » 2025.09 « Cucumberleaf Sunflower »
Packages R 4.2.3 – 2023-03-15
Nombre de packages disponibles : 18839
Nombre de packages installés : 803
R 4.4.1 – 2024-06-15
Nombre de packages disponibles : 20944
Nombre de packages installés : 814
R 4.4.1 – 2024-06-15
Nombre de packages disponibles : 20944
Nombre de packages installés : 814

R 4.5.1 – 2025-06-13
Nombre de packages disponibles : 22505
R_Base_Core R 4.2.3 – 2023-03-15
R 4.4.1 – 2024-06-15
R 4.4.1 – 2024-06-15
R 4.5.1 – 2025-06-13

1.8 Organisation de Cerise (1/2)

Cerise est organisé en plusieurs répertoires :

=> Ces deux derniers espaces sont découpés par opérations statistiques

1.9 Organisation de Cerise (2/2)

1.10 Focus sur l’espace de production (1/2)

  • 1er niveau par rubriques (19 rubriques existantes)
    • 2ème niveau par sources
      • 3ème niveau par sous-répertoires millésimés

Exemple :

070_Production_lait/
070_Production_lait/7010_Conj_lait
070_Production_lait/7010_Conj_lait/EML_2018
070_Production_lait/7010_Conj_lait/EML_2019
070_Production_lait/7010_Conj_lait/EML_2020
070_Production_lait/7010_Conj_lait/EML_COLLECTE
070_Production_lait/7010_Conj_lait/EML_ESTIM
070_Production_lait/7010_Conj_lait/Programmes
...

1.11 Focus sur l’espace de production (2/2)

Les différents groupes d’habilitations disposent des droits suivants :

1.12 Accéder facilement à son espace personnel

L’accès à l’espace personnel de Cerise peut être difficile lorsque vous êtes “perdus” dans l’arborescence riche de Cerise. Voici ci-dessous comment faire pour y accéder rapidement.

Remarque : soyez économes dans l’utilisation de votre espace personnel. À ne réserver que pour des expérimentations. Pas de recopie de données…

1.13 Remarques et astuces sur Cerise


- Pour éviter le risque de perdre votre code R pendant une interruption Cerise, il est recommandé de cocher ces 2 cases accessibles dans le menu de RStudio > Outils > Options globales > Code > Onglet Sauvegarder.
Si vous consultez/testez le code d’un collègue, soyez vigilant avec cette option qui peut enregistrer des modifications par mégarde.

2 Bonnes pratiques

2.1 Cerise, un espace partagé

Comme tout espace partagé et mutualisé, il convient d’être économe en ressources sur Cerise.

Le DéMéSIS a principalement 2 métriques en tête :

2.2 Gestion des ressources par les utilisateurs (1/2)

Voici quelques conseils pour limiter la consommation de mémoire sous Cerise :

2.3 Gestion des ressources par les utilisateurs (2/2)

Utiliser la fonction gc() pour libérer la mémoire occupée inutilement par votre session.
Ou via l’interface de RStudio :

Voir cette page d’utilitr pour en savoir plus.

2.4 Gestion des sessions (1/2)

2.5 Gestion des sessions (2/2)

Chaque session est indépendante des autres. Si vous avez lancé un long traitement dans une session, celle-ci est occupée et non-réactive le temps du traitement, mais vous pouvez continuer à travailler normalement dans les autres sessions.

À retenir !

Il est important de veiller à limiter votre nombre de sessions actives (maximum 5 !) au risque de ne plus pouvoir accéder à Cerise par la suite.

Au S2 2025, il est prévu de limiter le nombre de sessions en parallèle par utilisateur et de supprimer automatiquement les sessions inactives.

2.6 Chargement/Téléchargement de fichiers Cerise (1/2)

2.7 Chargement/Téléchargement de fichiers Cerise (2/2)

Pour information

Les administrateurs de Cerise n’ont pas la possibilité de mettre en place un filtre sur le type de fichiers qui sont chargés sur Cerise => veillez à ne pas télécharger n’importe quel type de fichier (exécutables par exemple).


2.8 Restauration des fichiers

2.9 Versionner votre code

Une bonne pratique pour limiter les demandes de restauration de fichiers est de versionner avec Git vos scripts et programmes R.

Git permet :

Un module de formation est disponible à cette adresse, n’hésitez pas à vous y inscrire !

Pour ceux d’entre vous déjà formés et qui souhaitent configurer Cerise avec Gitlab, suivre ce tutoriel.

2.10 Utilisation du mode projet

Il est recommandé d’utiliser le mode projet le plus souvent possible.
Plusieurs avantages :

2.11 Comparatif des formats de fichier de données

Format Taille du fichier Utilisation mémoire Vitesse écriture Vitesse lecture
RDS ✅ Moyenne à faible (compressé, un seul objet) ⚠️ Modérée (lecture directe d’un objet) ✅ Rapide (compresse par défaut) ✅ Rapide (pour un seul objet)
CSV ❌ Très grande (non compressé, texte brut) ❌ Élevée (tout doit être parsé, conversion de type) ✅ Rapide à écrire, peu coûteux 🐢 Lent, très coûteux en ressources
Parquet ✅ Faible (colonnes compressées, binaire) ✅ Faible (lecture par lot, colonnes ciblées) ⚠️ Écriture plus lente (compression + formatage) 🚀 Très rapide

2.12 Résumé des propriétés des différents formats

2.13 Recommandations selon le contexte

Cas d’usage Format conseillé
Persistance R native, mono-objet RDS
Échange simple, manuel, petit volume CSV
Volume important, usage mutualisé, scalable Parquet

2.14 Mise à disposition d’applications Shiny

Pour certains cas métiers spécifiques et sous certaines contraintes (sécurité/performance/maintenabilité…), il est possible de déployer sur internet des applications web (R/Shiny) sur shinyapps.io.

Des précautions s’imposent et doivent être prises en compte en amont des développements par les bureaux métiers et/ou les SRISE (pré-étude de sécurité obligatoire).

Nous invitons les équipes concernés de se rapprocher du BQIS pour plus d’informations.

2.15 Gestion des chemins

2.16 Recommandations générales

3 Droits Cerise

3.1 Habilitations

La majorité des espaces présents sous Cerise sont soumis à des régimes d’habilitations.

Pour les nouveaux arrivants, ce sont les responsables hiérarchiques qui demandent les habilitations sur l’ensemble des outils.

La procédure à suivre est disponible sous Pistache sur cette page.

Pour toutes les autres habilitations supplémentaires au fil de l’eau qui concernent Cerise, vous pouvez faire une demande à la BAL d’assistance.

3.2 Matrice des habilitations

3.3 Rendre un dossier (ou un fichier) modifiable par vos collègues

Des ACL (Access Control List) sont appliqués dans Cerise.
Il s’agit d’un mécanisme de gestion des droits qui permet de définir qui peut accéder à quelles ressources et avec quels niveaux de permissions.

Côté utilisateurs, cela implique quelques règles d’usage à suivre — pour éviter notamment la non-modification d’un dossier/fichier par vos collègues.

Règle générale :

Ne pas faire “Déplacer…” des dossiers/fichiers depuis son espace personnel vers un espace de partage mais faire un “Copier vers …”

4 Assistance

4.1 Module débogage

Un module d’auto-formation est disponible à cette adresse : https://ssm-agriculture.github.io/formation_debug/#/title-slide.

Cette présentation vous présente quelques outils que vous avez déjà à disposition sous votre RStudio sur Cerise afin de vous aider à trouver par vous-même la source de vos bugs.

4.2 À qui demander de l’aide sur Cerise/R ?

Les demandes d’assistances et les remontées de bugs sont à adresser à la BAL d’assistance.


4.3 Comment demander de l’aide sur R ?

Essayez autant que possible de suivre les conseils contenus dans cette page ou celle-ci avant de poser votre question. Celle-ci doit contenir les éléments suivants :

Votre demande sera d’autant plus vite traitée que celle-ci sera facilement reproductible par l’équipe d’assistance.

4.4 Mise à disposition plateforme de test

Cerise PPRD : https://rstudio-pprd.agriculture.rie.gouv.fr

Objectif :
- Test des programmes sur la nouvelle version de R à venir
- Montée de version des packages et mise à jour des programmes le cas échéant

Contexte de test :
- Habilitations : Iso-production
- Système de fichiers / arborescence irrégulièrement synchronisé avec Cerise de PROD
- Tests ouverts à tous les utilisateurs Cerise

Alimentation des données d’enquêtes Capibara activées à la demande par le BQIS.

5 Onyxia

5.1 Onyxia - SSP Cloud

5.2 Avantages d’Onyxia

Un Datalab dimensionné pour les usages innovants

5.3 Remarques

5.4 Aperçu du catalogue de services

5.5 Un espace dédié à l’expérimentation

5.6 Bibliographie